他自身愚行的分量

❦

在我遇到一位想要创造人工通用智能（Artificial General Intelligence，AGI），而且手里还有个拿到资助的项目、偏偏又是创造论者的人之前的那些年里，我仍然会试着跟个别 AGI 追梦人争辩。

那几年里，我算是半成功地说服了这样一个家伙：没错，你必须把 Friendly AI（友好型 AI）考虑进去；不，你不能只是给进化算法找到正确的适应度指标就了事。（在那之前，他对进化算法印象非常深。）

而那人说道：啊，悲哉！啊，痛哉！我曾是何等愚蠢！因为我的粗心，我几乎毁灭了世界！我从前竟是何等恶棍！

而那，恰恰是一个我早就知道不该掉进去的陷阱——

——因为在 2002 年末，当我回头去看 Eliezer1997 的 AI 提案，并意识到它们真正会干出什么时——前提是说，我那些提案至少还算有足够的一致性，好让我能谈论它们「真正会干出什么」。

当我终于看清自己愚行的分量时，一切在同一时刻全都归了位。挡住那份认识的堤坝裂开了；而一直在后面不断积累、从未说出口的怀疑，也一下子一起冲了出来。并没有什么漫长时期，甚至也没有某一个我记得起来的瞬间，让我去纳闷自己怎么会那么蠢。我本来就知道那是怎么发生的。

而且在同一个领悟瞬间，我也同时明白了：如果说出**「我几乎毁灭了世界！」**，那就太自负了。

那会过度确认自我，过度确认我自己在整个图景中的重要性；而在那个瞬间——我同样是在那个领悟瞬间明白这一点的——我的自我本该在肚子上狠狠挨上一拳。我离自己本应成为的样子差得太远；我必须挨下那一拳，而不是躲开它。

同样地，我也没有掉进与之相反的另一个陷阱：「哦，好吧，又不是我手里已经有了代码，正准备运行；我其实并没有真的差点毁灭世界。」 因为那也会削弱那一拳的力道。「枪其实没上膛？」 我当时提出的是：要去造那把枪，给枪上膛，把枪顶到自己头上，再扣动扳机；而这就有点太过自我毁灭了。

我没有把这件事渲染成一场盛大的情绪戏剧。那会浪费那一拳的力量，把它偏转成几滴眼泪而已。

在同一个瞬间，我明白了：过去六年里，我一直在小心翼翼地不去做什么。我一直没有在更新。

而我也知道，我终于必须更新了。必须真的去改变自己打算做的事，改变自己现在正在做的事，转而去做一些别的东西。

我知道，我必须停下来。

停机、熔毁并起火。

要说：「我还没准备好。」要说：「我还不知道该怎么做这件事。」

在 AGI 领域里，这些话极难说出口。外行听众和你的同行 AGI 研究者，都对代码感兴趣，对那种已有程序员上场的项目感兴趣。退一步说，哪怕只是你说：「我已经准备好写代码了；只差资金。」他们也可能给你一点认可。

可你要是说：「我还没准备好写代码」，你的地位就会像一只贫铀气球一样直坠下去。

那样一来，你和那六十亿个不知道如何创造人工通用智能的人，又有什么区别？如果你拿不出漂亮的代码（显然，那代码做的不会是像人类一样聪明这种事；但至少它是代码），又或者至少拿不出一家自己的创业公司，宣称一旦拿到资金就会立刻开始写代码——那么，你究竟是谁？你来我们的会议又是在做什么？

也许以后我会写写这种态度从何而来——比如，在「我知道怎么造 AGI！」和「我不知道怎么造 AGI，所以我在做狭义 AI」之间，被排除掉的那个中间地带；又比如，「我正在努力从一张不完整的 FAI 地图，走到一张完整的 FAI 地图」这个概念为何并不存在。

但这种态度确实存在，因此，说出「我还没准备好写代码」所伴随的地位损失极其巨大。（如果有人怀疑这一点，就请他们说出另一个同时会说「我打算建造人工通用智能」、「我现在造不出 AGI，因为我不知道 X」以及「我目前正在试图搞明白 X」的人。）

（更别提那些已经拿到风险投资、承诺五年内给出回报的 AGI 人了。）

所以，人们会极不情愿地说「停下」。你不能只是说：「哦，那我就切回去，进入搞明白 X 的模式。」因为那种模式根本不存在。

就我个人而言，那份抗拒除了地位损失之外，还有别的东西吗？Eliezer2001 也许还会本能地避开任何会让他感到自己正朝智能爆炸迈进的势头放慢下来的事情；毕竟那件事曾显得如此正确、如此必要……

但我想，更多还是因为我害怕自己说不出「我已经准备好开始写代码了」。不只是害怕别人会怎么反应，也因为我自己早已内化了同样的态度。

最重要的是，Eliezer2001 之所以即便在注意到 Friendly AI 问题之后，仍然没有说出「停下」，是因为我在直觉层面上并没有意识到：自然是被允许杀死我的。

俗话说：「青少年总觉得自己不会死。」显然，这在字面意义上并不是真的——如果你问他们：「你刀枪不入吗？」他们不会回答「是啊，你开枪试试。」但也许，系安全带之所以在情感上对他们并没有那么强的驱动力，是因为他们对自己会死这件事并不觉得真实——他们并不真的相信这件事是被允许发生的。它在原则上可以发生，但它不能在现实里真的发生。

就我个人而言，我一直都系安全带。作为一个个体，我知道自己会死。

但是，因为我在技术迷恋中长大，学会把那件最珍贵、远比我自己生命更重要的东西视为至宝，所以我曾一度以为：未来是不可摧毁的。

即便在我承认纳米技术可能毁灭人类之后，我仍然相信智能爆炸是不会被伤害的。只要人类活下来，智能爆炸就会发生，而由此产生的 AI 会聪明到不可能被腐化，也不可能丢失。

甚至在那之后，当我已经把 Friendly AI 当成一个需要考虑的因素时，我在情感上仍不相信失败的可能性；就像那个不系安全带的青少年，并不真的相信车祸被允许真的杀死他或让他残废一样。

直到我对优化的洞见让我得以回过头来，在清晰的光线下看见 Eliezer1997，我才意识到：自然是被允许杀死我的。

「你不能去想的那个念头，比你大声说出的念头更能支配你。」但我们只会对那些对自己来说真实的恐惧退缩。

AGI 研究者会非常认真地看待别人先一步解决问题的前景。他们能想象自己在报纸头条上看到：自己的工作被别人抢了风头。他们知道，自然是被允许对他们做出这种事的。那些已经开了公司的人知道，自己是可能把风险投资耗尽的。那种可能性对他们来说是真实的，非常真实；它对他们具有一种情感上的强制力量。

我不认为，一声「糟了」之后紧跟着六十亿具尸体轰然倒下——而且还是倒在他们自己手里——对他们来说，在同一层面上同样真实。

揣测别人心里在想什么并不安全。但看起来相当有可能的是：当有人面对 Friendly AI 的前景，会回答说「如果你为了安全而推迟开发，那些完全不在乎 Friendly AI 的其他项目就会抢在你前面」，那么，对「自己犯下一个错误，然后六十亿具尸体轰然倒下」这件事，他们并不觉得那样真实；但别人抢在他们前头的可能性，却让他们深深恐惧。

在我理解自然是被允许杀死我之前，我也曾说过这种话。

在那个领悟的瞬间，我童年的技术迷恋终于碎裂了。

我终于明白了：即便你勤勉地遵守了科学的规则，即便你是个好人，自然仍然可能杀死你。我终于明白了：即便你已经是所有候选项目里最好的那个，自然仍然可能杀死你。

我明白了：自然不会按曲线给我打分。我的目光终于从竞争对手身上挣脱开来，我看见了一堵纯然空白的高墙。

我回头看去，看见自己曾精心构造出一套套论证，为的是说明：最明智的选择，是继续像我原本计划的那样全速向前。而那时我明白了：即便你已经构造出一个论证，证明某件事是最好的行动路线，自然依然可以回你一句「那又怎样？」，然后把你杀掉。

我回头看去，看见自己曾声称：我已经把犯下根本性错误的风险考虑在内；我也曾论证过，在并不具备完整知识的情况下继续前进，这种风险为什么是可以容忍的。

而我看见，我当时想要容忍的那种风险，本来会杀死我。我看见，这种可能性从未对我真正真实过。我看见，即便你有再明智、再优秀的理由去承担某种风险，那种风险仍然被允许继续往前走，并把你杀掉。真的杀掉你。

因为真正重要的只有行动，而不是你做任何事的理由。如果你造了那把枪，给枪上了膛，把枪顶到自己头上，再扣动扳机——哪怕你为每一步都准备了全世界最聪明的论证——那么，砰。

我看见，只有我自己对规则的无知，才让我得以去论证：在并不完全知道规则的情况下也可以继续前进；因为如果你不知道规则，你就无法对无知的代价进行建模。

我看见，其他仍然不懂规则的人，也在说：「我将继续去做 X。」而且只要 X 还算是个自洽的提案，我就知道那会以一声爆响收场；可他们却说：「我并不知道它不可能成功。」我试着向他们解释：搜索空间里的目标有多么小，而他们则回答说：「你怎么能这么确定我不会中彩票？」——他们把自己的无知当成棍棒来挥舞。

于是我意识到，在我先前那种无知状态下，我唯一能够用来拯救自己的办法，就是说：「在我明确知道脚下地面安全之前，我绝不往前走。」你当然可以为「踩上一块你并不知道下面埋着地雷的地面」编出许多聪明的理由；可当你回头看向那个你曾打算踏上的地方，并看见那里一声炸响时，这些理由听起来就都没那么聪明了。

我明白了：你可以把所有你本该做的事都做了，而自然仍然被允许杀死你。就在那时，我最后一点信任也碎了。也就在那时，我作为理性主义者的训练开始了。

Thoughts Memo 翻译合集

他自身愚行的分量